演讲

GTC 2024 — Blackwell B200 发布

开场：这不是演唱会，这是开发者大会

"欢迎来到 GTC。我希望你们意识到，这不是一场演唱会——你们进入的是一场开发者大会。接下来会有大量的科学、算法、计算机架构、数学内容。我刚刚在房间里感到一阵莫名的沉重，好像你们忽然意识到'我可能来错地方了'。"

他说这场大会的伟大之处是：真正站上台的不是那些 IT 老朋友——迈克尔·戴尔就坐在这儿——而是非 IT 行业的人。生命科学、医疗、基因组学、运输、零售、物流、制造、工业……"在场的产业加起来代表了 100 万亿美元的世界经济。真的有什么事情正在发生。整个行业正在被改变——不止我们的行业。因为计算机是当今社会最重要的工具，计算本身的根本性变革会影响每一个行业。"

"我们是怎么走到这里的？我画了一张漫画。1993 年我们创立 NVIDIA。2006 年 CUDA 平台——我们当时就觉得这是革命性的计算模型，以为会一夜成名，然后差不多 20 年后它才真正成为主流。2012 年 AlexNet——AI 和 CUDA 第一次接触。2016 年我们发明了 DGX-1，170 teraflops、8 颗 GPU 第一次连在一起——我亲手把第一台 DGX-1 送到了一家叫 OpenAI 的旧金山初创公司。2017 年 Transformer 诞生。2022 年 ChatGPT 抓住了全世界的想象力。2023 年，生成式 AI 出现，一个全新的产业诞生了。"

一个全新产业：为什么这是新的工业革命

"为什么说是一个新产业？因为这种软件以前不存在。我们现在用计算机来写软件，生产的是一种从前不存在的软件。这是一个全新的品类——它不是从别的品类抢份额，它是从零开始的新品类。而这种软件的生产方式，跟我们以前做过的任何东西都不一样——它是在数据中心里生成 token、在极大规模上产出浮点数。"

然后他给出了整场演讲里最精炼的一段类比："就像上一次工业革命开始时，人们意识到你可以建一座工厂、给它通电，然后产出一种看不见却极其有价值的东西——电。发电机出现，然后过了 100 年、200 年，我们今天在用一种叫做 AI 工厂的基础设施，生产一种新的电子——token——产出一种新的极其有价值的东西：人工智能。一个新的产业诞生了。"（生成式 AI 工业革命）

他也预告了未来主题："我们要讲接下来怎么做计算，讲因为这个新产业而要写的新软件，讲新应用，以及——我们今天要怎么为下一个时代做准备。"

检索 vs 生成：计算范式的根本转向

"过去我们做计算的方式是检索。你拿起手机、点一下，一个信号跑出去，从某个存储里把预先录制好的内容——一段文字、一张图、一个视频——流回到你的手机上，再按推荐系统的方式重新组装展示给你。"

"未来，绝大部分内容都不会再用'检索'这种方式产生。因为检索出来的东西是'不懂你在什么语境里'的某个人事先录好的——这就是为什么今天我们要检索那么多内容。如果你跟一个懂你语境、懂你为什么要这个信息的 AI 一起工作，它会按你想要的方式生成信息给你。我们能省下的能源、网络带宽、浪费的时间将是巨大的。未来是生成式的，这就是为什么我们叫它'生成式 AI'，这就是为什么这是一个全新产业。"

加速计算的临界点：省钱 vs 提规模

"加速计算已经到了临界点。通用计算已经没动力了——我们必须换一种方式做计算，才能继续扩展、继续把成本往下压、在可持续的前提下继续消耗更多计算。加速计算比通用计算快一大截。"（摩尔定律已死）

但他在这里甩出一个与过去不同的观点：对 NVIDIA 所服务的那些工业模拟行业来说，事情甚至不是"降低计算成本"，而是"把计算规模拉起来"。"我们要能用完整保真度、完全数字化地把整个产品仿真出来、造出来——这就是数字孪生。我们要数字化地设计、建造、仿真、运行。"

他顺势宣布一连串"把整个行业拉进加速计算"的合作：Ansys、Synopsys、Cadence——"这三家公司基本上是我们造 NVIDIA 用的工具。我们要 CUDA 加速 Cadence、Synopsys 和 Ansys，把它们统统接到 NVIDIA Omniverse。台积电今天宣布正式用 cuLitho 量产。"（TSMC）

这里还有一个藏着的现金流逻辑："一旦你加速了，你的基础设施就是 CUDA GPU——而这些 GPU 跟生成式 AI 用的是同一套基础设施。所以当你为工程仿真部署加速计算的时候，你顺便就为生成式 AI 做好了准备。这是隐藏的红利。"

Scaling Law 背后的算术："1000 年，值得"

"Transformer 发明之后，大语言模型以惊人的速度扩展——基本上每 6 个月翻一倍。为什么每 6 个月翻一倍还能把整个产业推着往前冲？很简单：你把模型规模翻倍，相当于把大脑翻倍，你就需要两倍的数据去填满它。所以每次参数量翻倍，你的训练 token 数也要相应增加，两者相乘就是你需要的算力规模。"

"OpenAI 最新的 state-of-the-art 模型大概是 1.8 万亿参数，训练时要几万亿 token。两者相乘大概是 30-50 万亿 quadrillion 次浮点运算。我们做点 CEO 数学：一个 quadrillion 差不多就是一个 peta。如果你有一颗 petaflops GPU，你需要 300 亿秒。300 亿秒是多少？大概 1000 年。"

"好吧，1000 年也值得——我一般都是这么回答人的。别人问我'这事要花多久？'我说 20 年，值得。但是能不能下周就做出来？"

"所以我们需要更大的 GPU。我们很早就意识到这点，所以把一堆 GPU 连在一起——发明 Tensor Core、推进 NVLink 让它们变成一个虚拟巨型 GPU、用 Mellanox 的 InfiniBand 把整个系统连起来。DGX-1 只是第一版，不是最后一版。我们一路建超级计算机：2021 年 Selene 4500 颗 GPU，2023 年 Eos。我们建这些是为了帮助全世界建这些——而要帮世界建，我们自己必须先建。"

介绍 Blackwell：不是芯片，是平台

"Hopper 棒极了，但我们需要更大的 GPU。各位，请欢迎一颗非常非常大的 GPU——"

他拿起 Blackwell 实物芯片，对旁边的 Hopper 说："It's okay, Hopper. 你是个好 GPU，好女孩。"

"Blackwell 不是一颗芯片。Blackwell 是一个平台的名字。人们以为我们造 GPU——没错我们是——但 GPU 已经不是它过去的样子了。"

208 亿晶体管。而且是第一次，两颗 die 以这种方式并排连在一起——"10 TB/s 的 die-to-die 带宽，让 Blackwell 芯片的两侧根本不知道自己在哪一侧。没有内存局部性问题，没有缓存问题。它就是一颗巨型芯片。当我们告诉工程师 Blackwell 的野心超出了物理极限时，工程师说'so what?'——然后就做出来了。"

然后是一系列架构创新：第二代 Transformer Engine 能在运行时动态地把数值格式缩放到更低精度（FP8 → FP6 → FP4），同时保持推理收敛。第五代 NVLink，双向 1.8 TB/s 的芯片级互联，而且在网络内做计算（all-reduce、all-to-all、all-gather）。RAS 引擎——可靠性引擎，对 Blackwell 每一个逻辑门、每一个内存 bit 做 100% 自检："就像我们给每颗芯片都附送了一个高级测试仪——当你花 20 亿美元建一台超级计算机，你最不想看到的就是它宕机。"

5x 的 token 生成能力。"为什么不满足于 5x？因为这还不够。"

NVLink Switch：500 亿晶体管的连接器

"我们需要一颗更大的 GPU。所以我们造了另一颗芯片。500 亿晶体管，差不多跟 Hopper 自己一样大。这颗芯片叫 NVLink Switch——它让每颗 GPU 都能以满带宽同时跟每一颗其他 GPU 说话。这听起来不可思议，这几乎不合理。但如果你能做到、并且便宜地做到——那么所有 GPU 就连成一颗巨型 GPU 了。"

"而要做到便宜，这颗芯片必须能直接驱动铜线。它的 SerDes 就是一个非凡的发明，让我们可以直接走铜线。因此我们可以造出这样的系统——"

他搬出 GB200 NVL72 机柜："这是一颗 DGX——六年前我能亲手把第一台 DGX-1 送到 OpenAI（0.17 petaflops）。现在这台是 720 petaflops，差不多是世界上第一台单机柜 exaflops 级训练机。3000 磅，5000 根 NVLink 线，一共两英里长；如果我们改用光学 transceivers，单是 transceiver 就要烧掉 2 万瓦——白白浪费。我们靠 NVLink Switch 省掉了这 20 千瓦。液冷进水 25 度、出水 45 度——你可以拿它当按摩浴缸外设卖。600000 个零件——大致就是一辆碳纤维法拉利的重量。"

训练 GPT：8000 GPU 15 兆瓦 → 2000 GPU 4 兆瓦

"训练一个 1.8 万亿参数的 GPT 模型——原来用 25000 颗 Ampere 大概要 3-5 个月。换 Hopper，大概要 8000 颗 GPU、15 兆瓦、90 天。换 Blackwell，只需要 2000 颗 GPU、4 兆瓦、90 天。"

"我们的目标就是持续把成本和能源降下去——它们成正比。这样我们才能继续扩大训练下一代模型所需的算力。"

训练讲完，他话锋转到推理："其实如今 NVIDIA GPU 在云里大概一半的时间是在做 token 生成——你的 copilot、你的 ChatGPT、图像生成、视频生成、蛋白质生成、分子生成。这些都属于推理这个品类——但更准确的说法是生成。"

推理对大模型而言极其难："这些模型大到一颗 GPU 装不下。想象一下 Excel 装不下你的电脑，你日常用的应用装不下一台计算机——这在超大规模云计算里几乎从未发生过。但突然之间，一个推理应用就需要后面一台超级计算机来跑。这就是未来。"

他展示出那张经典的"tokens per second per user × tokens per second per data center"图表，X 轴是用户的交互速率，Y 轴是工厂的吞吐量。"这两个维度彼此对抗。右上角最好，但很难做到。"然后解释了 tensor parallel、expert parallel、pipeline parallel、data parallel 的组合搜索空间："这个搜索空间之大，如果不是因为 NVIDIA GPU 的可编程性、CUDA 的生态，根本探索不了。"

然后是杀招：在 reasoning 和大模型推理上，Blackwell 是 Hopper 的 30 倍。"一代之内。因为这是一台为 trillion-parameter 生成式 AI 专门设计的系统。"

NIM：AI 时代的软件分发单位

Blackwell 讲完，他转向软件。"既然我们造了一台生成式 AI 时代的计算机，那么生成式 AI 时代的软件长什么样？"

答案是 NIM——NVIDIA Inference Microservice。"一个 NIM 就是一个预训练模型，已经打包好、已经优化好，可以在 NVIDIA 的所有硬件上跑。你去 ai.nvidia.com 就能下载。"

NIM 的核心思想是让 AI 变成可组合的微服务。"想象一下，某一天你用一个聊天机器人——它本身就是一个 NIM。它的一部分执行计划可能被交给另一个 NIM：比方说一个懂 SAP 和 ABAP 的 NIM、一个懂 ServiceNow 的 NIM；再交给另一个 NIM 去做组合优化计算。所有这些 NIM 拼在一起像一个团队一样协作，做惊人的事情。"

他还讲了企业里最让他兴奋的一件事——把企业数据变成可以"对话"的知识库："企业 IT 是一座金矿。我们公司的绝大多数数据不在云里，在公司内部，静静躺着不被充分利用。我们想做的是学习它的含义——就像我们学会一只猫的像素含义——然后把它重新索引到一种新型数据库里，叫向量数据库。于是结构化和非结构化数据都被编码成一个 AI 数据库，你可以直接跟它对话。我们的软件团队现在每天就跟 bug 数据库聊天：'昨晚有多少个 bug？我们有进展吗？'——然后你需要做心理治疗。所以我们还有另一个聊天机器人给你。"

这个"检索器"产品叫 NeMo Retriever。

AI Foundry：为 AI 做台积电做的事

"这里正在浮现三根支柱。第一根是发明 AI 模型技术，并且替你把它打包好——这就是 NIM。第二根是帮你修改它的工具——这就是 NeMo Microservices。第三根是帮你微调和部署的基础设施——这就是 DGX Cloud。"

"我们本质上是一家 AI Foundry。我们要为 AI 行业做的事，就像 TSMC 为芯片行业做的事——你带着大想法去台积电，它帮你制造，你把产品拿走。同样地，一旦你在我们这里做好了 AI，它就是你的，你可以带到任何地方。"

AI Foundry 的首批旗舰客户：SAP（占全球商业的 87%）、ServiceNow（85% 的财富 500 用它做人力和客服）、Cohesity（数百 EB 的数据备份）、Snowflake（每天 30 亿条查询）、NetApp（全球近一半企业文件）、Dell。

物理 AI：三台计算机与 Project GR00T

"目前所有的 AI 都是一台计算机——数据流进来，AI 模仿我们。但下一波 AI 要理解物理世界，我们需要三台计算机。第一台仍然是 AI 训练机 DGX。第三台是放在机器人里的 AGX/Jetson——全球第一颗机器人处理器，当初人们问我们在造什么——那是一颗低功耗 SoC，专门为高速传感器处理和运行 Transformer 而设计的。但在它们中间，我们还需要第二台计算机。"

"大语言模型有'基于人类反馈的强化学习'——那机器人的'人类反馈'是什么？是物理反馈。机器人要靠物理规律来对齐。所以我们需要一个模拟引擎，给机器人一个可以学习的虚拟世界——它的健身房。我们把这个虚拟世界叫 NVIDIA Omniverse，运行它的机器叫 OVX。"

然后是当天最震撼的发布：Project GR00T——一个面向人形机器人的通用基础模型。"下一代机器人很可能是人形机器人，原因很简单：我们能给它们的模仿数据最多——因为世界是为我们这种形态设计的。我们的工作台、制造线、物流、仓储都是为人设计的，所以人形机器人部署起来会最有效率。"

"我们在造整个 stack：顶层是学习人类视频的基础模型，中间是 Isaac Reinforcement Learning Gym——让机器人学会适应物理世界，底层是一颗叫 Thor 的处理器——同一颗会进机器人汽车的芯片，为 Transformer 引擎设计。"

GR00T 可以让机器人从少量人类演示中学习日常任务、只通过观察我们就模仿人类动作。"连接到大语言模型之后，它甚至能根据自然语言指令生成动作。Hi GR1, can you give me a high five?"

谢幕：五件事

"总结一下今天：

新工业革命：加速计算全面铺开，一万亿美元的已装机数据中心会在未来几年被现代化改造。同时，生成式 AI 催生了一种全新的基础设施——不是多用户数据中心，是 AI 生成器——AI 工厂。
Blackwell：这一代革命的计算机，为生成式 AI、为万亿参数模型而生。
NIM：新计算机催生新软件，新软件需要新的分发方式——既是云上的端点也能随你带走，因为它是你的智能。
NeMo 与 AI Foundry：帮助你把 NIM、工具和 DGX Cloud 组合起来，为你造专属的 AI。
Omniverse 与 Isaac 机器人：未来所有会动的东西都会是机器人。不是只有你是唯一会动的生物了。仓库、工厂、制造线、汽车——它们都需要一个数字孪生平台，我们叫它 Omniverse——机器人世界的操作系统。"

"当别人问我 GPU 长什么样？我脑子里浮现的是这个——"他指着 Blackwell GB200 NVL72 机柜。"这就是我心目中 GPU 的样子。"

原文出处：GTC 2024 YouTube 完整转录（CNET）+ Ernest Chiang 深度 notes

链接到本页 18

…" > ——2022-03 GTC 2022 - Hopper H100 与 AI Factories 到了 2024-03 GTC 2024 - Blackwell B200 发布，AI 工厂被升级为"新工业革命的发电机"： > "Just like the last industrial rev…

查看原文 →

…r-watt 是新的生产函数，算力（compute）直接等于收入（revenues）**。这个概念的早期形态出现在 2024-03 GTC 2024 - Blackwell B200 发布，黄仁勋第一次把 token 比作"工业革命里的电子"。完整定型则出现在 [[2026-Q4 NVIDIA F…

查看原文 →

…"加速计算已经到了临界点。通用计算已经没动力了——我们必须换一种方式做计算，才能继续扩展、继续把成本往下压。" > ——2024-03 GTC 2024 - Blackwell B200 发布 ### 实践应用 - 第一个应用：1993 年的 PC 3D 图形加速（GeForce） - **…

查看原文 →

…已经没动力了——我们必须换一种方式做计算，才能继续扩展、继续把成本往下压、在可持续的前提下继续消耗更多计算。" > ——2024-03 GTC 2024 - Blackwell B200 发布第三,摩尔定律死了之后，加速计算和 Extreme Co-Design 接棒。这是黄仁勋整个…

查看原文 →

…需要第二台计算机——一个模拟引擎，给机器人一个可以学习的虚拟世界。我们把这个虚拟世界叫 Omniverse。" > ——2024-03 GTC 2024 - Blackwell B200 发布第三,物理 AI 的可验证奖励就是物理定律。在 [[2025-03 GTC 2025 - Blackwe…

查看原文 →

…同等量级的工业级转折——一种全新的"基础设施 + 产品 + 经济学"在地球上从无到有地诞生**。最完整的命名出现在 2024-03 GTC 2024 - Blackwell B200 发布： > "Just like the last industrial revolution, when people…

查看原文 →

…济"的完整逻辑链——他不是在重复，他是在持续地"解释"。 4. 最弱学生策略——解释要让最差的学生也能懂。 2024-03 GTC 2024 - Blackwell B200 发布开场就是一个完美范例： > "Welcome to GTC. I hope you realize this is…

查看原文 →

…*Blackwell (2024) → Vera Rubin (2025-2026) - 首次提及：2024-03 GTC 2024 - Blackwell B200 发布 - 提及次数：18 篇素材中 12 篇明确出现 ## 一句话定位 Blackwell 不是一颗芯片，是…

查看原文 →

…到了一家叫 OpenAI 的旧金山初创公司——"那就是今天驱动 ChatGPT 的大语言模型背后的引擎"。（2024-03 GTC 2024 - Blackwell B200 发布、2023-03 GTC 2023 - AI 的 iPhone 时刻） - 2021 年 4 月（GTC 2…

查看原文 →

…000 颗 GPU、15 兆瓦、90 天。换 Blackwell 只需要 2000 颗 GPU、4 兆瓦、90 天。"（2024-03 GTC 2024 - Blackwell B200 发布） - 2025 年 3 月（GTC 2025）：黄仁勋说在 reasoning workload 下"Blac…

查看原文 →

…nference Microservices - 类型：自建业务（AI 模型分发与部署） - 首次提及：2024-03 GTC 2024 - Blackwell B200 发布 - 提及次数：3 篇素材中明确出现 ## 一句话定位 NIM 是 NVIDIA 在 [[Blackwell…

查看原文 →

…器人。仓库、工厂、制造线、汽车都需要一个数字孪生平台，我们叫它 Omniverse——机器人世界的操作系统。"（2024-03 GTC 2024 - Blackwell B200 发布） - 2025 年 1 月 CES：Omniverse 与 Cosmos 配对——Cosmos 生成场…

查看原文 →

…s、8 颗 GPU 第一次连在一起。黄仁勋"亲手把第一台 DGX-1 送到了一家叫 OpenAI 的旧金山初创公司"。（2024-03 GTC 2024 - Blackwell B200 发布） - 2019：收购 Mellanox——黄仁勋称之为"整个公司身份的迁移"，从芯片公司变成数据中心公…

查看原文 →

…eivers 单是 transceiver 就要烧掉 2 万瓦，"NVLink Switch 省掉了这 20 千瓦"。（2024-03 GTC 2024 - Blackwell B200 发布） - 2025 年 3 月（GTC 2025）：黄仁勋讲清楚为什么要 disaggregate NVLink…

查看原文 →

…如果你有一颗 petaflops GPU，你需要 1000 年。" 这是 Blackwell 必须存在的理由。（2024-03 GTC 2024 - Blackwell B200 发布） ### 2025：Stargate 与 1000 亿投资 - 2025 Q4 财报（FY25 Q4）：[…

查看原文 →

…e 时刻]]） - 2024 年 3 月（GTC 2024）："台积电今天宣布正式用 cuLitho 量产。"（2024-03 GTC 2024 - Blackwell B200 发布） - 2025 年 3 月（GTC 2025）：硅光子 CPO 全面深化合作——"全球第一款 1.6 Tbps…

查看原文 →

…psys 集成进他们的软件、制造工艺和系统里，用于生产最新一代的 NVIDIA Hopper 架构 GPU"。 - 2024-03 GTC 2024 - Blackwell B200 发布：黄仁勋宣布"台积电今天宣布正式用 cuLitho 量产"，并把 NVIDIA 比作 AI Foundry——"我们…

查看原文 →

…ra Rubin]] 路线图首次完整披露 / AI 工厂的工业化定义 / 物理 AI 三台计算机 - 2024-03 GTC 2024 - Blackwell B200 发布 —— "Don't Miss This Defining Moment in AI" / Blackwell…

查看原文 →